"""
思路：
1.拿到页面源代码
2.编写正则，提取页面数据
3.保存数据

"""
import requests
import re


# csv文件是数据与数据以逗号隔开的文件。123,12,1212,
f = open("top.csv",mode="w",encoding="utf-8")

# 获取源码
url = "https://movie.douban.com/chart"

headers={
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36"
}

resp = requests.get(url,headers=headers)
content = resp.text
# print(content)


# 编写正则表达式
# re.S 可以让正则中的.能匹配到换行符
obj = re.compile(r'<table width="100%" class="">.*?<a href="https://movie.douban.com/subject/\d+/"  class="">(?P<name>.*?) / .*?</a>',re.S)

result = obj.finditer(content)
for item in result:
    name = item.group("name").strip()
    print(item.group("name").strip())
    f.write(f"{name}\n")

f.close()
resp.close()

